#corrección de densidad estacionaria

Zero-Shot Off-Policy: Aprendizaje sin Entrenamiento

Nueva técnica de aprendizaje off-policy con zero-shot adapta políticas óptimas sin reentrenamiento, usando sucesores y densidades estacionarias. Benchmark en ExoRL y OGBench.

2026-06-02 · 2 min